Automation of cleaning and ensembles for outliers detection in questionnaire data

نویسندگان

چکیده

This article is focused on the automatic detection of corrupted or inappropriate responses in questionnaire data using unsupervised outliers detection. The surveys are often used psychology research to collect self-report and their preprocessing takes a lot manual effort. Unlike with numerical where distance-based prevail, records questionnaires have be assessed from various perspectives that do not relate so much. We identify most frequent types errors questionnaires. For each them, we suggest different methods ranking usage normalized scores. Considering similarity between pairs outlier scores (some highly uncorrelated), propose an ensemble based union detected by methods. Our framework consists some well-known algorithms but also novel approaches addressing typical issues selected distance, entropy, probability. experimental section describes process assembling selecting parameters for final model detecting significant real-world HBSC dataset.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

metrics for the detection of changed buildings in 3d old vector maps using als data (case study: isfahan city)

هدف از این تحقیق، ارزیابی و بهبود متریک های موجود جهت تایید صحت نقشه های قدیمی سه بعدی برداری با استفاده از ابر نقطه حاصل از لیزر اسکن جدید شهر اصفهان می باشد . بنابراین ابر نقطه حاصل از لیزر اسکنر با چگالی حدودا سه نقطه در هر متر مربع جهت شناسایی عوارض تغییر کرده در نقشه های قدیمی سه بعدی استفاده شده است. تمرکز ما در این تحقیق بر روی ساختمان به عنوان یکی از اصلی ترین عارضه های شهری می باشد. من...

investigation of single-user and multi-user detection methods in mc-cdma systems and comparison of their performances

در این پایان نامه به بررسی روش های آشکارسازی در سیستم های mc-cdma می پردازیم. با توجه به ماهیت آشکارسازی در این سیستم ها، تکنیک های آشکارسازی را می توان به دو دسته ی اصلی تقسیم نمود: آشکارسازی سیگنال ارسالی یک کاربر مطلوب بدون در نظر گرفتن اطلاعاتی در مورد سایر کاربران تداخل کننده که از آن ها به عنوان آشکارساز های تک کاربره یاد می شود و همچنین آشکارسازی سیگنال ارسالی همه ی کاربران فعال موجود در...

the clustering and classification data mining techniques in insurance fraud detection:the case of iranian car insurance

با توجه به گسترش روز افزون تقلب در حوزه بیمه به خصوص در بخش بیمه اتومبیل و تبعات منفی آن برای شرکت های بیمه، به کارگیری روش های مناسب و کارآمد به منظور شناسایی و کشف تقلب در این حوزه امری ضروری است. درک الگوی موجود در داده های مربوط به مطالبات گزارش شده گذشته می تواند در کشف واقعی یا غیرواقعی بودن ادعای خسارت، مفید باشد. یکی از متداول ترین و پرکاربردترین راه های کشف الگوی داده ها استفاده از ر...

Impact of Outliers in Data Envelopment ‎Analysis‎

This paper will examine the relationship between "Data Envelopment Analysis" and a statistical concept ``Outlier". Data envelopment analysis (DEA) is a method for estimating the relative efficiency of decision making units (DMUs) having similar tasks in a production system by multiple inputs to produce multiple ‎outputs.‎ An important issue in statistics is to identify the outliers. In this pap...

متن کامل

Detection of Outliers in Time Series Data

DETECTION OF OUTLIERS IN TIME SERIES DATA Samson Kiware, B.A. Marquette University, 2010 This thesis presents the detection of time series outliers. The data set used in this work is provided by the GasDay Project at Marquette University, which produces mathematical models to predict the consumption of natural gas for Local Distribution Companies (LDCs). Flow with no outliers is required to dev...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: Expert Systems With Applications

سال: 2022

ISSN: ['1873-6793', '0957-4174']

DOI: https://doi.org/10.1016/j.eswa.2022.117809